Введение в подготовку частных данных для RAG

Основа RAG

Стандартные модели больших языковых моделей (LLM) «заморожены» во времени и ограничены датой окончания их обучения. Они не могут отвечать на вопросы о внутреннем руководстве вашей компании или приватном видеомероприятии вчера.Генерация с поддержкой извлечения (RAG)заполняет этот разрыв, предоставляя модели ИИ соответствующий контекст, извлечённый из ваших собственных частных данных.

Многоэтапный рабочий процесс

Чтобы сделать частные данные доступными для модели ИИ, мы следуем определённому процессу:

Загрузка:Преобразование различных форматов (PDF, веб, YouTube) в стандартный формат документа.
Разбиение:Разделение длинных документов на более мелкие, управляемые «фрагменты».
Векторизация:Преобразование текстовых фрагментов в числовые векторы (математические представления смысла).
Хранение:Сохранение этих векторов в хранилище векторов (например, Chroma) для сверхбыстрого поиска по схожести.

Почему важна фрагментация

У моделей ИИ есть «окно контекста» (ограничение на количество текста, которое они могут обработать за раз). Если вы отправите 100-страничный PDF, модель не справится. Мы разбиваем данные на фрагменты, чтобы отправить только наиболее релевантную информацию.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Why is chunk_overlap considered a critical parameter when splitting documents for RAG?

To reduce the total number of tokens used by the LLM.

To ensure that semantic context (the meaning of a thought) is not cut off at the end of a chunk.

To make the vector database store data faster.

Challenge: Preserving Context

Apply your knowledge to a real-world scenario.

You are loading a YouTube transcript for a technical lecture. You notice that the search results are confusing "Lecture 1" content with "Lecture 2."

Task

Which splitter would be best for keeping context like "Section Headers" intact?

Solution:
MarkdownHeaderTextSplitter or RecursiveCharacterTextSplitter. These allow you to maintain document structure in the metadata, helping the retrieval system distinguish between different chapters or lectures.